以二維共振峰分布建立語者音色模型及其在語者驗證上之應用 (Using 2D Formant Distribution to Build Speaker Models and Its Application in Speaker Verification) [In Chinese]
نویسندگان
چکیده
語音是人類彼此間溝通最方便也最首要的方式。語音不但是用於傳播信息,也是一項重要的生物特徵 (biometrics),可以用來做身份識別之用。對於利用電腦來分析語音這方面的研究,大致可分為兩個領域: 一是語詞識別(speech recognition),一是語者識別(speaker recognition)[1-4]。若是要分辨某一個語音 樣本是否來自某一個特定的語者,則又稱為語者驗證(speaker verification 或 speaker authentication)。 語者驗證又可細分為限定語詞(text dependent)與非限定語詞(text independent)兩種方式[5,6]。在限 定語詞的方式中,用來比對的兩段語音樣本,其語音之內容須為相同或相似。而在非限定語詞的方式下, 其語句之內容可為不同。後者之處理難度較高,但在取樣上較不受限,其應用也較為廣泛。本研究之內 容是屬於語者驗證性質,同時包括了限定語詞與非限定語詞的方式。
منابع مشابه
華台雙語發音變異性之語音辨識研究及PDA之應用 (The study of pronunciation variations in Mandarin and Taiwanese and its application in PDA) [In Chinese]
本篇論文提出一種方法來有效的處理華台雙語同時存在於同一句話的語音辨識 問題。主要的核心可分為三部分;一.聲學模型:此部分是用一個共同的標音系統,使相同 的發音的標音在不同語言上能夠做語料的分享,而且在語音特徵擷取上也加上聲調的參 數,以減少華字與音節間的混淆。二.發音模型:此部分是結合了以專家知識為主的發音辭 典與實際上語料分析結果而成變異發音,前者是統計了的華台雙語辭典的華字對音節發音 機率,找出一個華字在辭典上所有可能的發音;而後者是將音節的辨識結果做成發音對華 字的混淆機率。第三部份是將華字直接嵌入在語言模型中,作為搜尋的節點。之後用唐詩 300首的實驗,其針對目前台灣地區華台夾雜的語句,以及發音變異性的問題,都能確實降 低一成五到兩成的漢字相對錯誤率。最後將此技術移植到PDA上,也做了相關的應用。
متن کامل基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]
根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...
متن کامل結合關鍵詞驗證及語者驗證之雲端身份驗證系統 (A Cloud Speaker Authentication System Based on Keyword Verification and Speaker Verification) [In Chinese]
電腦和網際網路的誕生,讓人們的生活越來越便利。而隨著行動裝置的快速發展,人類 的生活方式更是產生了非常大的變革,不僅需要的資訊,信手拈來便可以獲得;許多企 業所提供的新興商品與服務交易,更是在彈指之間便可以順利完成。因此,如何在網際 網路上提供使用者方便、快速、彈性、可靠的身份驗證,並免除使用者記憶及輸入一大 堆用戶名稱及密碼的負擔,便成為一個重要的課題。本研究結合了關鍵詞驗證和語者驗 證技術,讓使用者不需要記憶及輸入冗長與煩雜的資訊,只要對著智慧型行動裝置說話, 身份辨識系統便可以在網際網路的環境中對使用者來進行身份驗證。我們以隱藏式馬可 夫模型和高斯混合模型分別實作了關鍵詞驗證模組與語者驗證模組,並以分散式架構實 作出雲端即時身份辨識系統。我們以 TCC-300 語料進行語者模型參數和訓練流程的調校 實驗,以改進語者驗證效能的訓練流程;並對背景語者篩選方法及性別相關模型進行實 驗...
متن کامل使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]
摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل